Анализ сообществ в социальной сети вконтакте с применением графов¶

Резюме¶

В этой статье мы будем анализировать участников группы вконтакте Сбербанк карьера с применением теории графов. Для анализа взяты участники сообщества с открытыми профилями.

!Дисклеймер: данные по распределению признаков корректны, графовые данные не совсем, т.к. из почти 60к участников с открытыми профилями собрана информация тоько о 13к.

Структура¶

  • общие характеристики сообщества
  • распределение признаков
  • топ групп
  • выделение популярных участников
  • выделение подгрупп
    • распределение признаков
    • топ групп
  • Послесловие
    • Скрипт сбора данных
    • Что можно сделать еще

Настройка среды¶

Общие характеристики сообщества¶

Представим сообщество вконтакте в виде точек и стрелочек между ними, где точка — это человек, а стрелочка — это подписка. Если два человека дружат, то это двусторонняя стрелочка.

Количество открытых профилей сообщества: 57874
Общее количество связей между участниками: 83657
Среднее количество друзей внутри сообщества: 1.4455022980958634
Медианное количество друзей внутри сообщества: 0.0

Компоненты связности - это группы пользователей, которые связаны внутри, но не связаны между собой.

Распределение размеров компонент cсвязности:
количество таких компонент
Кол-во учатников внутри компоненты
1 40560
2 555
3 120
4 29
5 12
6 4
7 5
11 1
15598 1
Видим, что людей без друзей внутри сообщества 40560
Самая большая компонента включает 15598 участников

Распределение признаков¶

city - город
sex - пол
byear - год рождения
occupation - занятость
occupation_type - тип занятости
relation - отношения
alcohol - отношение к алкоголю 1(резко негативное)-5(резко положительное)
inspired_by - вдохновлен
langs - языки
life_main - главное в жизни
people_main - главное в людях
political - полит. взгляды
religion - религия
smoking - отношение к курению 1(резко негативное)-5(резко положительное)
followers_count - количество подписчиков
first_name - имя
last_name - фамилия
status - статус
main_group_likes - кол-во поставленных лайков в основной группе
got_likes_from_members - кол-во лайков, полученных от участников основной группы
got_likes - общее кол-во полученных лайков

  0%|                                                                                         | 0/2052 [00:00<…
DataPrep Report
DataPrep Report Overview
Variables ≡
city sex byear occupation occupation_type relation alcohol inspired_by langs life_main people_main political religion smoking followers_count first_name last_name status main_group_likes
Interactions Correlations Missing Values

Overview

Dataset Statistics

Number of Variables 19
Number of Rows 57874
Missing Cells 561468
Missing Cells (%) 51.1%
Duplicate Rows 454
Duplicate Rows (%) 0.8%
Total Size in Memory 49.2 MB
Average Row Size in Memory 891.4 B
Variable Types
  • Categorical: 16
  • Numerical: 3

Dataset Insights

city has 16218 (28.02%) missing values Missing
byear has 29904 (51.67%) missing values Missing
occupation has 26876 (46.44%) missing values Missing
occupation_type has 26876 (46.44%) missing values Missing
relation has 32728 (56.55%) missing values Missing
alcohol has 55374 (95.68%) missing values Missing
inspired_by has 55135 (95.27%) missing values Missing
langs has 43319 (74.85%) missing values Missing
life_main has 52450 (90.63%) missing values Missing
people_main has 52245 (90.27%) missing values Missing
political has 53600 (92.61%) missing values Missing
religion has 55627 (96.12%) missing values Missing
smoking has 52565 (90.83%) missing values Missing
followers_count has 4032 (6.97%) missing values Missing
status has 4484 (7.75%) missing values Missing
followers_count is skewed Skewed
main_group_likes is skewed Skewed
city has a high cardinality: 2655 distinct values High Cardinality
occupation has a high cardinality: 11356 distinct values High Cardinality
inspired_by has a high cardinality: 2121 distinct values High Cardinality
langs has a high cardinality: 654 distinct values High Cardinality
religion has a high cardinality: 494 distinct values High Cardinality
first_name has a high cardinality: 5120 distinct values High Cardinality
last_name has a high cardinality: 27860 distinct values High Cardinality
status has a high cardinality: 20309 distinct values High Cardinality
alcohol has constant length 3 Constant Length
smoking has constant length 3 Constant Length
main_group_likes has 57412 (99.2%) zeros Zeros
  • 1
  • 2
  • 3

Variables


city

categorical

Approximate Distinct Count 2655
Approximate Unique (%) 6.4%
Missing 16218
Missing (%) 28.0%
Memory Size 3060969
  • The largest value (Moscow) is over 3.45 times larger than the second largest value (Saint Petersburg)

Length

Mean 8.3997
Standard Deviation 3.5509
Median 7
Minimum 0
Maximum 33

Sample

1st row Saint Petersburg
2nd row Saint Petersburg
3rd row Moscow
4th row Saint Petersburg
5th row Saint Petersburg

Letter

Count 342760
Lowercase Letter 295227
Space Separator 4655
Uppercase Letter 47533
Dash Punctuation 2002
Decimal Number 21
  • city contains many words: 2734 words
  • The largest value (moscow) is over 3.45 times larger than the second largest value (saint)

sex

categorical

Approximate Distinct Count 2
Approximate Unique (%) 0.0%
Missing 35
Missing (%) 0.1%
Memory Size 3990106

Length

Mean 3.9864
Standard Deviation 0.9999
Median 3
Minimum 3
Maximum 5

Sample

1st row man
2nd row man
3rd row woman
4th row man
5th row man

Letter

Count 230571
Lowercase Letter 230571
Space Separator 0
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0
  • The top 2 categories (man, woman) take over 50.0%

byear

numerical

Approximate Distinct Count 64
Approximate Unique (%) 0.2%
Missing 29904
Missing (%) 51.7%
Infinite 0
Infinite (%) 0.0%
Memory Size 447520
Mean 1990.223
Minimum 1946
Maximum 2009
Zeros 0
Zeros (%) 0.0%
Negatives 0
Negatives (%) 0.0%
  • byear is skewed left (γ1 = -0.6429)

Quantile Statistics

Minimum 1946
5-th Percentile 1975
Q1 1984
Median 1991
Q3 1998
95-th Percentile 2003
Maximum 2009
Range 63
IQR 14

Descriptive Statistics

Mean 1990.223
Standard Deviation 9.3248
Variance 86.9511
Sum 5.5667e+07
Skewness -0.6429
Kurtosis 0.5671
Coefficient of Variation 0.004685
  • byear is not normally distributed (p-value 0.00015962849635331341)
  • byear has 251 outliers

occupation

categorical

Approximate Distinct Count 11356
Approximate Unique (%) 36.6%
Missing 26876
Missing (%) 46.4%
Memory Size 4694565
  • The largest value (Сбер) is over 3.33 times larger than the second largest value (МГУ)

Length

Mean 16.8242
Standard Deviation 14.2954
Median 13
Minimum 1
Maximum 255

Sample

1st row СПбГЭУ
2nd row СПбГУ
3rd row СПбНИУ ИТМО
4th row Группа
5th row Зеленый покемон

Letter

Count 34234
Lowercase Letter 23385
Space Separator 53081
Uppercase Letter 10849
Dash Punctuation 1997
Decimal Number 2190
  • occupation contains many words: 14282 words

occupation_type

categorical

Approximate Distinct Count 3
Approximate Unique (%) 0.0%
Missing 26876
Missing (%) 46.4%
Memory Size 2246016

Length

Mean 7.4568
Standard Deviation 2.9465
Median 10
Minimum 4
Maximum 10

Sample

1st row university
2nd row university
3rd row university
4th row work
5th row work

Letter

Count 231146
Lowercase Letter 231146
Space Separator 0
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0
  • The top 2 categories (university, work) take over 50.0%

relation

categorical

Approximate Distinct Count 9
Approximate Unique (%) 0.0%
Missing 32728
Missing (%) 56.5%
Memory Size 3473665
  • The largest value (не указано) is over 2.74 times larger than the second largest value (женат/замужем)

Length

Mean 12.0928
Standard Deviation 3.1538
Median 10
Minimum 10
Maximum 22

Sample

1st row женат/замужем
2nd row в активном поиске
3rd row помолвлен/помолвле...
4th row не указано
5th row не указано

Letter

Count 0
Lowercase Letter 0
Space Separator 22298
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0

alcohol

categorical

Approximate Distinct Count 5
Approximate Unique (%) 0.2%
Missing 55374
Missing (%) 95.7%
Memory Size 170000

Length

Mean 3
Standard Deviation 0
Median 3
Minimum 3
Maximum 3

Sample

1st row 1.0
2nd row 4.0
3rd row 2.0
4th row 3.0
5th row 3.0

Letter

Count 0
Lowercase Letter 0
Space Separator 0
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 5000
  • alcohol has words of constant length

inspired_by

categorical

Approximate Distinct Count 2121
Approximate Unique (%) 77.4%
Missing 55135
Missing (%) 95.3%
Memory Size 537287
  • The largest value (Музыка) is over 2.15 times larger than the second largest value (Люди)

Length

Mean 28.6072
Standard Deviation 109.0043
Median 14
Minimum 1
Maximum 3103

Sample

1st row сиськи
2nd row Разноцветные стике...
3rd row Красота многообраз...
4th row Путешествия
5th row спорт

Letter

Count 3011
Lowercase Letter 2529
Space Separator 8525
Uppercase Letter 482
Dash Punctuation 105
Decimal Number 753
  • inspired_by contains many words: 3993 words

langs

categorical

Approximate Distinct Count 654
Approximate Unique (%) 4.5%
Missing 43319
Missing (%) 74.9%
Memory Size 1888968
  • The largest value (Русский) is over 8.44 times larger than the second largest value (Русский,English)

Length

Mean 10.4133
Standard Deviation 19.0993
Median 7
Minimum 2
Maximum 1180

Sample

1st row Русский
2nd row Русский
3rd row Русский
4th row Русский,English,De...
5th row Русский,English

Letter

Count 30951
Lowercase Letter 26531
Space Separator 373
Uppercase Letter 4420
Dash Punctuation 7
Decimal Number 0
  • The largest value (русский) is over 8.45 times larger than the second largest value (русскийenglish)

life_main

categorical

Approximate Distinct Count 8
Approximate Unique (%) 0.1%
Missing 52450
Missing (%) 90.6%
Memory Size 782952
  • The largest value (семья и дети) is over 1.85 times larger than the second largest value (саморазвитие)

Length

Mean 13.6814
Standard Deviation 3.2889
Median 12
Minimum 12
Maximum 22

Sample

1st row семья и дети
2nd row совершенствование ...
3rd row семья и дети
4th row саморазвитие
5th row саморазвитие

Letter

Count 0
Lowercase Letter 0
Space Separator 7464
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0

people_main

categorical

Approximate Distinct Count 6
Approximate Unique (%) 0.1%
Missing 52245
Missing (%) 90.3%
Memory Size 916093
  • The largest value (доброта и честность) is over 3.66 times larger than the second largest value (юмор и жизнелюбие)

Length

Mean 18.4363
Standard Deviation 0.8796
Median 19
Minimum 17
Maximum 19

Sample

1st row ум и креативность
2nd row доброта и честност...
3rd row доброта и честност...
4th row ум и креативность
5th row доброта и честност...

Letter

Count 0
Lowercase Letter 0
Space Separator 11258
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0
  • The largest value (и) is over 1.71 times larger than the second largest value (доброта)

political

categorical

Approximate Distinct Count 9
Approximate Unique (%) 0.2%
Missing 53600
Missing (%) 92.6%
Memory Size 583030
  • The largest value (умеренные) is over 4.28 times larger than the second largest value (либеральные)

Length

Mean 11.3533
Standard Deviation 2.8976
Median 9
Minimum 9
Maximum 20

Sample

1st row индифферентные
2nd row индифферентные
3rd row умеренные
4th row индифферентные
5th row умеренные

Letter

Count 0
Lowercase Letter 0
Space Separator 0
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 0
  • The largest value (умеренные) is over 4.28 times larger than the second largest value (либеральные)

religion

categorical

Approximate Distinct Count 494
Approximate Unique (%) 22.0%
Missing 55627
Missing (%) 96.1%
Memory Size 318089
  • The largest value (Православие) is over 7.55 times larger than the second largest value (Светский гуманизм)

Length

Mean 13.2421
Standard Deviation 15.3922
Median 11
Minimum 1
Maximum 254

Sample

1st row Верим. Он в меня, ...
2nd row Православие
3rd row Православие
4th row все сложно
5th row Последователь L-7

Letter

Count 612
Lowercase Letter 526
Space Separator 1444
Uppercase Letter 86
Dash Punctuation 63
Decimal Number 63
  • The largest value (православие) is over 7.51 times larger than the second largest value (гуманизм)

smoking

categorical

Approximate Distinct Count 5
Approximate Unique (%) 0.1%
Missing 52565
Missing (%) 90.8%
Memory Size 361012

Length

Mean 3
Standard Deviation 0
Median 3
Minimum 3
Maximum 3

Sample

1st row 1.0
2nd row 2.0
3rd row 2.0
4th row 3.0
5th row 4.0

Letter

Count 0
Lowercase Letter 0
Space Separator 0
Uppercase Letter 0
Dash Punctuation 0
Decimal Number 10618
  • smoking has words of constant length

followers_count

numerical

Approximate Distinct Count 3788
Approximate Unique (%) 7.0%
Missing 4032
Missing (%) 7.0%
Infinite 0
Infinite (%) 0.0%
Memory Size 861472
Mean 588.51
Minimum 0
Maximum 53745
Zeros 637
Zeros (%) 1.1%
Negatives 0
Negatives (%) 0.0%
  • followers_count is skewed right (γ1 = 10.1283)

Quantile Statistics

Minimum 0
5-th Percentile 17
Q1 155
Median 323.5
Q3 605
95-th Percentile 1824
Maximum 53745
Range 53745
IQR 450

Descriptive Statistics

Mean 588.51
Standard Deviation 1138.6308
Variance 1.2965e+06
Sum 3.1687e+07
Skewness 10.1283
Kurtosis 229.9873
Coefficient of Variation 1.9348
  • followers_count is not normally distributed (p-value 5.851080689584345e-25)
  • followers_count has 4489 outliers

first_name

categorical

Approximate Distinct Count 5120
Approximate Unique (%) 8.8%
Missing 0
Missing (%) 0.0%
Memory Size 4123428

Length

Mean 6.1323
Standard Deviation 1.7025
Median 6
Minimum 1
Maximum 33

Sample

1st row Mikhail
2nd row Mikhail
3rd row Elena
4th row Sergey
5th row Alex

Letter

Count 353976
Lowercase Letter 287034
Space Separator 8
Uppercase Letter 66942
Dash Punctuation 210
Decimal Number 0
  • first_name contains many words: 5092 words

last_name

categorical

Approximate Distinct Count 27860
Approximate Unique (%) 48.1%
Missing 0
Missing (%) 0.0%
Memory Size 4231942
  • The largest value () is over 5.46 times larger than the second largest value (Ivanov)

Length

Mean 7.9613
Standard Deviation 2.5107
Median 8
Minimum 0
Maximum 34

Sample

1st row Petrov
2nd row Chudotvorov
3rd row Kharlamova
4th row Popov
5th row Demidovich

Letter

Count 459416
Lowercase Letter 402579
Space Separator 29
Uppercase Letter 56837
Dash Punctuation 578
Decimal Number 1
  • last_name contains many words: 27817 words

status

categorical

Approximate Distinct Count 20309
Approximate Unique (%) 38.0%
Missing 4484
Missing (%) 7.7%
Memory Size 7661708
  • The largest value () is over 298.88 times larger than the second largest value (...)

Length

Mean 17.2272
Standard Deviation 31.0886
Median 0
Minimum 0
Maximum 148

Sample

1st row
2nd row
3rd row
4th row Я хотел познать вс...
5th row Страница была взло...

Letter

Count 92255
Lowercase Letter 83862
Space Separator 126843
Uppercase Letter 8393
Dash Punctuation 3765
Decimal Number 17149
  • The top 2 categories (, ...) take over 50.0%
  • status contains many words: 34442 words

main_group_likes

numerical

Approximate Distinct Count 24
Approximate Unique (%) 0.0%
Missing 0
Missing (%) 0.0%
Infinite 0
Infinite (%) 0.0%
Memory Size 925984
Mean 0.02352
Minimum 0
Maximum 100
Zeros 57412
Zeros (%) 99.2%
Negatives 0
Negatives (%) 0.0%
  • main_group_likes is skewed right (γ1 = 89.7615)

Quantile Statistics

Minimum 0
5-th Percentile 0
Q1 0
Median 0
Q3 0
95-th Percentile 0
Maximum 100
Range 100
IQR 0

Descriptive Statistics

Mean 0.02352
Standard Deviation 0.8378
Variance 0.7018
Sum 1361
Skewness 89.7615
Kurtosis 9369.2331
Coefficient of Variation 35.6239
  • main_group_likes is not normally distributed (p-value 4.226906734684068e-25)

Interactions

Correlations

Missing Values

Report generated with DataPrep

Топ групп¶

Группы, на которые подписаны наибольшее количество пользователей

кол-во подписанных участников
Название группы
Карьера в Сбере 13089
Сбер 3035
Сарказм 2581
Подслушано Сбербанк 2136
Наука и Техника 2117
Идеи дизайна интерьера 2062
Психология 1975
MDK 1894
Лепра 1816
Книги 1697
Новинки Музыки | Новая Музыка 2023 1664
Science|Наука 1621
Киномания - Лучшие фильмы 1552
Хитрости жизни 1536
Моя квартира 1489
Интересные факты 1462
Вокруг света 1434
Интерьер и декор 1423
Vandrouki | Путешествия почти бесплатно (RU) 1423
ВКонтакте 1422
Школа ремонта 1420
Психология отношений 1411
Пикабу 1382
Словарный запас 1378
Шедевры рекламы 1322
Рецепты 1308
Киномания ► Новинки кино 1307
Литература | Великие поэты 1306
Бизнес Инфо 1271
Food.ru — Главная кухня страны 1267

Выделение популярных участников¶

Выведем список самых популярных людей внутри сообщества на основе eigenvector_centrality:

first_name occupation followers_count
0 E. ДВГУПС (бывш. ХабИИЖТ, ДВГАПС) 896.0
1 S. Сбер 1255.0
2 V. НИУ ВШЭ - Пермь (ГУ ВШЭ) 1441.0
3 I. Волго-Вятский банк Сбербанка России 599.0
4 N. Сбер 854.0
5 Y. Сбер 889.0
6 I. NaN 1349.0
7 V. Сбер 1001.0
8 S. ПГТУ 859.0
9 S. Сбер 1045.0
10 E. УдГУ 364.0
11 D. СберМаркетинг 1743.0
12 A. Сбер 583.0
13 A. Сбер 1353.0
14 N. Сбер 4156.0
15 Y. ПАО Сбербанк 1109.0
16 A. ПГУ 460.0
17 D. КГТЭИ 598.0
18 A. NaN 725.0
19 M. ТоГУ (бывш. ХПИ, ХГТУ) 723.0
20 N. Сбербанк России ОАО 373.0
21 E. МГЮА (Университет им. О. Е. Кутафина) 2558.0
22 A. Сбер 462.0
23 M. Сбер 1921.0
24 Y. Сбер 1843.0
25 A. СибГАУ им. Решетнева 661.0
26 A. НГПУ 884.0
27 S. ТвГУ 432.0
28 N. Freelance 971.0
29 A. Сбер 462.0

Выделение подгрупп¶

Для выделения подгрупп возьмём самую большую компоненту. С помощью магии выделяем подгруппы, в которых связь между людьми сильнее по сравнению с остальными людьми.

Плотность графа - количество связей/ количество связей если все со всеми дружат.
Например, если все дружат со всеми, то плотность=1, если никто ни с кем не дружит, плотность=0

Выведем список самых больших подгрупп:

sett размер медианное кол-во друзей плотность
0 {99510272, 438589441, 35295233, 86329352, 2987... 523 5.0 0.014293
1 {215061505, 288970754, 705539, 45051913, 12321... 382 4.0 0.019211
2 {321878017, 99270659, 7045125, 248611848, 2681... 295 4.0 0.023498
3 {8656384, 101642756, 302172677, 121193481, 482... 216 4.0 0.032171
4 {40147969, 177499650, 182228483, 116828166, 43... 212 4.0 0.034561
5 {22559746, 421202437, 711421958, 160727559, 31... 177 4.0 0.040800
6 {13639170, 437579268, 19701253, 11807245, 9640... 161 4.0 0.043051
7 {16417799, 4205583, 411268625, 101776915, 7007... 148 3.0 0.037967
8 {622593, 406020, 30042117, 2207760, 2074660, 4... 138 4.0 0.049138
9 {265879040, 11153410, 192265737, 54263309, 502... 138 3.0 0.038982

Распределение признаков¶

Сравним 5 самых больших подгрупп

DataPrep.EDA Report
Difference Overview
0_subgroup 1_subgroup 2_subgroup 3_subgroup 4_subgroup
Number of Variables 20 20 20 20 20
Number of Rows 523 382 295 216 212
Missing Cells 4807 3582 2785 1994 2028
Missing Cells (%) 46.0% 46.9% 47.2% 46.2% 47.8%
Duplicate Rows 0 0 0 0 0
Duplicate Rows (%) 0.0% 0.0% 0.0% 0.0% 0.0%
Total Size in Memory 102.0 KB 70.8 KB 56.5 KB 43.5 KB 42.9 KB
Average Row Size in Memory 101.5 KB 70.4 KB 56.2 KB 43.3 KB 42.7 KB
Variable Types
  • Categorical: 18
  • Numerical: 2
  • Categorical: 18
  • Numerical: 2
  • Categorical: 18
  • Numerical: 2
  • Categorical: 18
  • Numerical: 2
  • Categorical: 18
  • Numerical: 2
0_subgroup
1_subgroup
2_subgroup
3_subgroup
4_subgroup

Number of plots per page:

city
sex
byear
occupation
occupation_type
relation
alcohol
inspired_by
langs
life_main
people_main
political
religion
smoking
followers_count
first_name
last_name
status
main_group_likes
subgroup
  • Видим, что в нулевой подгруппе много стариков примерно 85-90 года рождения.
  • В четвертой подгруппе много работяг, столько же сколько и учащихся. Также в этой подгруппе, больше женщин, в остальных наоборот. Медиана примерно 1985 года рождения.

Топ подписок¶

Теперь посмотрим топ подписок в разных подгруппах

Общих групп: 12 
Общие группы: {'Наука и Техника', 'Психология', 'Новинки Музыки | Новая Музыка 2023', 'Лепра', 'MDK', 'Подслушано Сбербанк', 'Сбер', 'Карьера в Сбере', 'Идеи дизайна интерьера', 'Киномания - Лучшие фильмы', 'Cook Good - лучшие рецепты', 'Книги'}
0 1 2 3 4
Топ групп\Номер подгруппы
0 ПОДСЛУШАНО в ЯРОСЛАВЛЕ! АСТ-54 Нижний Новгород МОЙ ГОРОД — ПЕРМЬ! Типичный Брянск
1 Сарказм Типичный Новосибирск СберБизнес ПЕРМЬ АКТИВНАЯ | Perm Active Вокруг света
2 Ярославль LIVE Сарказм Глеб Никитин ПОДСЛУШАНО ПЕРМЬ 215819422
3 Интерьер и декор ЧП Красноярск Афиша - Нижний Новгород E.squire Отель MRIYA RESORT & SPA | Крым
4 Психология отношений Вокруг света Шедевры рекламы Работа в Перми Сарказм
5 Вокруг света Я живу в Красноярске Киномания ► Новинки кино Дневник успеха 121713712
6 Рецепты Инцидент Новосибирск Школа ремонта Школа ремонта Вкратце | Тула!
7 0% жирности Шедевры рекламы E.squire Пермский академический Театр-Театр Science|Наука
8 Ярославль online Живой Красноярск Литература | Великие поэты Пермь. Главное! АФИША БРЯНСК. Анонсы, розыгрыши билетов.
9 Школа ремонта Интерьер и декор Словарный запас Бизнес цитатник | психология и саморазвитие Литература | Великие поэты
10 Science|Наука Психология отношений Сарказм Киномания ► Новинки кино MySLO | Слобода
11 Аквапарк Ярославль Литература | Великие поэты Английский каждый день | Endaily Пермский край Худей вкусно
12 KudaGo: Москва 40 КГ Подслушано – Здесь говорят о тебе Новости Перми СберБизнес
13 РАКОВАР Морские Деликатесы в Ярославле Food.ru — Главная кухня страны Интересный Нижний Новгород | Новости Моя дача Психология отношений
14 Дневник успеха E.squire Рецепты Properm.ru — новости Перми и края 139047048
15 РБК Афиша Новосибирска Бизнес Инфо Пермь Онлайн Школа ремонта
16 БЕСПЛАТНО в ЯРОСЛАВЛЕ! Бизнес Инфо Без кота и жизнь не та ツ Vandrouki | Путешествия почти бесплатно (RU) KudaGo: Москва
17 Ярославль | Новости и Афиша Киномания ► Новинки кино Science|Наука Пермь 24/7 Дизайн / интерьер / стиль - SmashDesign
18 Ярпортал (Ярославль) КиноКайф - Лучшие фильмы Достойные фильмы КиноКайф - Лучшие фильмы Корпорация зла
19 Traveler - Путешествия и туризм ИМПЕРИЯ КИНО | ЧЕЛОВЕК-ПАУК | НОВИНКИ 2023 Food.ru — Главная кухня страны Apple Чёрный Список Тула
20 Отель MRIYA RESORT & SPA | Крым 5 интересных фактов Английский язык Идеи для дачи Администрация города Тулы
21 Бизнес креатив | С успехом по жизни Шедевры кулинарии| Вкусные рецепты Типичный банкир Квартирный Вопрос Английский язык
22 Достойные фильмы 0% жирности РИА Новости Термы ТЕНТОРИУМ — отдыхать здорово! | Пермь Дзен
23 Food.ru — Главная кухня страны Science|Наука Типичный Нижний Новгород Афиша Пермь. Куда сходить в Перми? Квартирный Вопрос
24 AliExpress Бизнес креатив | С успехом по жизни Женские секреты Бизнес Инфо ADME
25 Идеи вашего дома Пикабу Квартирный Вопрос Пермь-300. Всё реально! Дизайн интерьера
26 Vandrouki | Путешествия почти бесплатно (RU) Проспект Мира — Красноярск Моя квартира Я хочу... Омар Хайям и другие великие философы
27 КиноКайф - Лучшие фильмы Дневник успеха Интерьер и декор Интеллектуальный юмор Тонкий юмор
28 Моя квартира Палата №6 РБК Фабрика идей Моя квартира
29 Вдохновение. Рецепты Регион-52 | Нижний Новгород Авиакомпания «Победа» Подслушано у водителей в Туле
30 Практическая психология Новинки кино ИМПЕРИЯ КИНО | ЧЕЛОВЕК-ПАУК | НОВИНКИ 2023 0% жирности 131081771
31 ПиццаФабрика Ярославль | Пицца Роллы Вок Фильмы Английский язык. ADME Словарный запас
32 Фабрика идей Достойные фильмы Traveler - Путешествия и туризм Омар Хайям и другие великие философы Бизнес цитатник | психология и саморазвитие
33 Smart Money | Бизнес журнал Худей вкусно Пикабу ПЕРМЯКИ (Подслушано Пермь) Тула
34 Лайфхакерша Traveler - Путешествия и туризм Отель MRIYA RESORT & SPA | Крым Практическая психология Food.ru — Главная кухня страны
35 Бизнес цитатник | психология и саморазвитие Английский язык Афиша Нашего Города Нижний Новгород ПЕРМЬ АФИША Бизнес креатив | С успехом по жизни
36 Интеллектуальный юмор Интересные Факты Vandrouki | Путешествия почти бесплатно (RU) 220177434 Актуальный Брянск
37 5 интересных фактов Куда сходить в Новосибирске? Палата №6 Английский язык Just Cook

Сравним между собой 1, 2 подгруппы

Общих групп: 28 
Общие группы: {'Киномания ► Новинки кино', 'Food.ru — Главная кухня страны', 'Новинки Музыки | Новая Музыка 2023', 'Литература | Великие поэты', 'Подслушано Сбербанк', 'ИМПЕРИЯ КИНО | ЧЕЛОВЕК-ПАУК | НОВИНКИ 2023', 'Сбер', 'Английский язык', 'Сарказм', 'Лепра', 'MDK', 'Карьера в Сбере', 'Идеи дизайна интерьера', 'Достойные фильмы', 'Палата №6', 'Traveler - Путешествия и туризм', 'Бизнес Инфо', 'Шедевры рекламы', 'Cook Good - лучшие рецепты', 'Интерьер и декор', 'Пикабу', 'Книги', 'Наука и Техника', 'Рецепты', 'Психология', 'Киномания - Лучшие фильмы', 'E.squire', 'Science|Наука'}
1 2
Топ групп\Номер подгруппы
0 АСТ-54 Нижний Новгород
1 Типичный Новосибирск СберБизнес
2 ЧП Красноярск Глеб Никитин
3 Вокруг света Афиша - Нижний Новгород
4 Я живу в Красноярске Школа ремонта
5 Инцидент Новосибирск Словарный запас
6 Живой Красноярск Английский каждый день | Endaily
7 Психология отношений Подслушано – Здесь говорят о тебе
8 40 КГ Интересный Нижний Новгород | Новости
9 Афиша Новосибирска Без кота и жизнь не та ツ
10 КиноКайф - Лучшие фильмы Типичный банкир
11 5 интересных фактов РИА Новости
12 Шедевры кулинарии| Вкусные рецепты Типичный Нижний Новгород
13 0% жирности Женские секреты
14 Бизнес креатив | С успехом по жизни Квартирный Вопрос
15 Проспект Мира — Красноярск Моя квартира
16 Дневник успеха РБК
17 Новинки кино Регион-52 | Нижний Новгород
18 Фильмы Английский язык.
19 Худей вкусно Отель MRIYA RESORT & SPA | Крым
20 Интересные Факты Афиша Нашего Города Нижний Новгород
21 Куда сходить в Новосибирске? Vandrouki | Путешествия почти бесплатно (RU)
Плотность графа: 0.18181818181818182

Плотность графа близка к единице. Кажется, это очень дружная и обособленная компания, либо боты.

Давайте посмотрим на какие группы они подписаны:

кол-во
Название группы
Подслушано Краснодар 1
РУССКИЕ ФИЛЬМЫ И СЕРИАЛЫ 1
211930040 1
188540886 1
131506960 1
109345223 1
192553972 1
210963762 1
56946472 1
217626476 1
72315089 1
214287943 1
Ярмарка Мастеров — Livemaster 1
Ходьба с Лесли Сансон Leslie Sansone 1
212945414 1
182750919 1
Краснодарский край 1
73120557 1
159449280 1
120426113 1
211658542 1
98994375 1
Отдых на море | Жилье без посредников 2023 1
Госуслуги для родителей 1
209739009 1
Подгузники Pikool, Twins. Товары детской гигиены 1
PlayToday 1
217189297 1
198163926 1
182009857 1
162331598 1
105491675 1
203151010 1
Карьера в Сбере 1
211645147 1

Послесловие¶

Скрипт сбора данных - https://github.com/kan5/vk_parsing_analisys¶

С помощью данного скрипта можно спарсить сообщество в 25к примерно за неделю, 20к будут с открытыми профилями. Для работы скрипта нужно ссылка на группу вк. Скрипт соберет информацию об участниках. Это может быть и сообщество, и мероприятие.
Какие данные мы получаем:

  • основную информацию об участниках сообщества: пол, имя, город, дата рождения, университет, место работы и т.д. (здесь много пропусков, т.к. не все указывают все, но например город есть почти у всех)
  • кто с кем дружит, кто на кого подписан
  • подписки участников на группы, общую информацию о топ-n группах(тематика, название...)
  • последние 100 постов участников, лайки на них
  • последние 100 постов сообщества вк, лайки к ним

Что можно сделать еще¶

  • разбить тексты постов людей на кластеры и посмотреть самы популярные, самые популярные внутри сообщества(инструменты: carrot2, rubert + sklearn)
  • найти тональность постов(положительная, нейтральная, негативная), посмотреть аггрегированную тональность кластеров текстов, сравнить все это между несколькими подгруппами людей
  • выбрать другой алгоритм разбиения участников на подгруппы, который сможет учитвать не только связи между участниками, но и другими характеристиками(node2vec + sklearn), или просто другой алгоритм(в посте испольлзуется louvain, можно применить Leiden, Walktrap и еще десятки из библиотеки cdlib)
  • сделать предсказание ребер на основе общих друзей например, 2 учаснтика сообщества не дружат между собой, но у них 30 общих друзей, можно посчитать вероятность того, что они дружат и положить это значение в вес ребра
  • сделать граф, основанный на лайках, а не дружбе. Может даже совместить, еще и вк группы засунуть, но интерпретировать будет сложнее.
  • собрать информацию о группах не по подпискам а по лайкам, но это займет времени в десятки раз больше, вероятно